智能论文笔记

Single-Image Super-Resolution Reconstruction based on the Differences of Neighboring Pixels

Huipeng Zheng , Lukman Hakim , Takio Kurita , Junichi Miyao

分类：计算机视觉 | 机器学习

2022-12-28

The deep learning technique was used to increase the performance of single image super-resolution (SISR). However, most existing CNN-based SISR approaches primarily focus on establishing deeper or larger networks to extract more significant high-level features. Usually, the pixel-level loss between the target high-resolution image and the estimated image is used, but the neighbor relations between pixels in the image are seldom used. On the other hand, according to observations, a pixel's neighbor relationship contains rich information about the spatial structure, local context, and structural knowledge. Based on this fact, in this paper, we utilize pixel's neighbor relationships in a different perspective, and we propose the differences of neighboring pixels to regularize the CNN by constructing a graph from the estimated image and the ground-truth image. The proposed method outperforms the state-of-the-art methods in terms of quantitative and qualitative evaluation of the benchmark datasets. Keywords: Super-resolution, Convolutional Neural Networks, Deep Learning

translated by 谷歌翻译

GANStrument: Adversarial Instrument Sound Synthesis with Pitch-invariant Instance Conditioning

Gaku Narita , Junichi Shimizu , Taketo Akama

分类：机器学习

2022-11-10

We propose GANStrument, a generative adversarial model for instrument sound synthesis. Given a one-shot sound as input, it is able to generate pitched instrument sounds that reflect the timbre of the input within an interactive time. By exploiting instance conditioning, GANStrument achieves better fidelity and diversity of synthesized sounds and generalization ability to various inputs. In addition, we introduce an adversarial training scheme for a pitch-invariant feature extractor that significantly improves the pitch accuracy and timbre consistency. Experimental results show that GANStrument outperforms strong baselines that do not use instance conditioning in terms of generation quality and input editability. Qualitative examples are available online.

translated by 谷歌翻译

Towards Parameter-Efficient Integration of Pre-Trained Language Models In Temporal Video Grounding

Erica K. Shimomoto , Edison Marrese-Taylor , Hiroya Takamura , Ichiro Kobayashi , Hideki Nakayama , Yusuke Miyao

分类：计算机视觉 | 自然语言处理

2022-09-26

本文探讨了时间视频接地（TVG）的任务，在该任务中，给定未修剪的视频和查询句子，目标是在提供的自然语言查询描述的视频中识别和确定动作实例的时间界。最近的作品通过使用大型预训练的语言模型（PLM）直接编码查询来解决此任务。但是，很难隔离改进的语言表示的影响，因为这些作品还提出了视觉输入的改进。此外，这些PLM大大增加了训练TVG模型的计算成本。因此，本文研究了PLM在TVG任务中的影响，并根据适配器评估了NLP参数效率培训替代方案的适用性。我们将流行的PLM与选择现有方法和测试不同的适配器相结合，以减少其他参数的影响。我们在三个具有挑战性的数据集上的结果表明，当TVG模型对该任务进行微调时，可以从PLM中受益匪浅，并且适配器是完全微调的有效替代方法，即使它们并不适合我们的任务。具体而言，适配器有助于节省计算成本，从而使PLM集成在较大的TVG模型中，并提供与最先进模型相当的结果。最后，通过对TVG中不同类型的适配器进行基准测试，我们的结果阐明了哪种适配器最适合每个研究的情况。

translated by 谷歌翻译

The VoicePrivacy 2022 Challenge Evaluation Plan

Natalia Tomashenko , Xin Wang , Xiaoxiao Miao , Hubert Nourtel , Pierre Champion , Massimiliano Todisco , Emmanuel Vincent , Nicholas Evans , Junichi Yamagishi , Jean-François Bonastre

分类：自然语言处理

2022-03-23

对于新参与者 - 执行摘要：（1）任务是为语音数据开发语音匿名系统，该系统隐藏了说话者的语音身份，同时保护语言内容，副语言属性，清晰度和自然性。（2）除3种不同的基线匿名系统，评估脚本和指标外，还提供了培训，开发和评估数据集。参与者应用其开发的匿名系统，运行评估脚本并向组织者提交客观评估结果和匿名语音数据。（3）结果将在与Interspeech 2022结合的研讨会上展示，邀请所有参与者介绍其挑战系统并提交其他研讨会论文。对于熟悉语音挑战的读者 - 更改W.R.T. 2020年：（1）以自动扬声器验证（ASV）系统的形式进行了更强的半信息攻击模型，该系统接受了匿名（每位）语音数据的训练。（2）互补指标包括等于误差率（EER）作为隐私指标，单词错误率（WER）作为主要实用性度量，以及音调相关性和声音独特性作为辅助效用度量标准。（3）基于一组最小目标隐私要求的新排名策略。

translated by 谷歌翻译

Approximate Spectral Decomposition of Fisher Information Matrix for Simple ReLU Networks

Yoshinari Takeishi , Masazumi Iida , Jun'ichi Takeuchi

分类：机器学习

2021-11-30

我们使用Relu激活功能调查一个隐藏层网络的Fisher信息矩阵（FIM），并在某些条件下获得FIM的近似光谱分解。从这种分解中，我们可以近似主要特征值和特征向量。我们通过数值模拟确认，当隐藏节点的数量约为10000时，所获得的分解大致正确。

translated by 谷歌翻译

Effectiveness of Detection-based and Regression-based Approaches for Estimating Mask-Wearing Ratio

Khanh-Duy Nguyen , Huy H. Nguyen , Trung-Nghia Le , Junichi Yamagishi , Isao Echizen

分类：计算机视觉 | 人工智能

2021-11-25

估计公共场所的面膜磨损比率很重要，因为它使卫生当局能够及时分析和实施政策。报道了基于图像分析估计掩模磨损比的方法。但是，仍然对两种方法和数据集仍然缺乏全面的研究。最近的报告通过应用常规物体检测和分类方法直接提出估算比例。使用基于回归的方法来估计佩戴面具的人数是可行的，特别是对于具有微小和遮挡面孔的拥挤场景，但这并未得到很好的研究。大规模和良好的注释数据集仍在需求。在本文中，我们提出了两种比率估计方法，其利用基于检测的或基于回归的方法。对于基于检测的方法，我们改进了最先进的面部探测器，RetinaFace，用于估计比率。对于基于回归的方法，我们微调基线网络CSRNet，用于估计屏蔽和未屏蔽面的密度图。我们还提供了第一个大规模数据集，其中包含从18,088个视频帧中提取的581,108脸注释，从17个街道视图视频中提取了581,108个脸部注释。实验表明，基于视网膜的方法在各种情况下具有更高的准确性，并且由于其紧凑性，基于CSRNet的方法具有更短的操作时间。

translated by 谷歌翻译

The VoicePrivacy 2020 Challenge: Results and findings

Natalia Tomashenko , Xin Wang , Emmanuel Vincent , Jose Patino , Brij Mohan Lal Srivastava , Paul-Gauthier Noé , Andreas Nautsch , Nicholas Evans , Junichi Yamagishi , Benjamin O'Brien

分类：自然语言处理

2021-09-01

本文介绍了第一个致力于2020挑战的结果和分析，重点是开发语音技术的匿名解决方案。我们提供了对提交的系统和评估结果的分析，提供了挑战设计的系统概述。特别是，我们描述了用于系统开发和评估的语音匿名任务和数据集。此外，我们呈现不同的攻击模型和相关目标和主观评估指标。我们介绍了两个匿名化的基线，并提供了由挑战参与者开发的匿名化系统的摘要描述。我们向基线和提交的系统报告客观和主观评估结果。此外，我们提出了作为评估后分析的一部分开发的替代隐私度量和攻击模型的实验结果。最后，我们总结了我们的见解和观察，这将影响下一个语音普遍挑战版的设计和未来语音匿名化研究的某些方向。

translated by 谷歌翻译

Deep learning generates custom-made logistic regression models for explaining how breast cancer subtypes are classified

Takuma Shibahara , Chisa Wada , Yasuho Yamashita , Kazuhiro Fujita , Masamichi Sato , Junichi Kuwata , Atsushi Okamoto , Yoshimasa Ono

分类：机器学习 | 人工智能 | (统计)机器学习

2020-01-20

区分乳腺癌的内在亚型对于决定最佳治疗策略至关重要。深度学习可以比常规统计方法更准确地从遗传信息中预测亚型，但是迄今为止，尚未直接利用深度学习来检查哪些基因与哪些亚型相关。为了阐明嵌入在内在亚型中的机制，我们开发了一个可解释的深度学习模型，称为点线性（PWL）模型，该模型为每个患者生成定制的逻辑回归。逻辑回归是医生和医学信息学研究人员都熟悉的，使我们能够分析特征变量的重要性，而PWL模型则利用了逻辑回归的这些实际能力。在这项研究中，我们表明分析乳腺癌亚型对患者有益，也是验证PWL模型能力的最佳方法之一。首先，我们使用RNA-Seq数据训练了PWL模型，以预测PAM50固有的亚型，并通过亚型预测任务将其应用于PAM50的41/50基因。其次，我们开发了一种深度富集分析方法，以揭示PAM50亚型与乳腺癌的拷贝数之间的关系。我们的发现表明，PWL模型利用与细胞周期相关途径相关的基因。这些在乳腺癌亚型分析中取得的初步成功证明了我们分析策略的潜力，以阐明乳腺癌的基础机制并改善整体临床结果。

translated by 谷歌翻译